[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法(有源码)
本文简要介绍今年发表在CVPR 2022的论文“Open-Set Text Recognition via Character-Context Decoupling”的主要工作。论文针对现有方法从训练集中学到的上下文信息会干扰新字符的识别的问题,将视觉特征信息和上下文信息解耦并分别建模,提出DTA和DCA模块分别学习时序信息和语言信息。作者通过定性和定量的实验,在Open-set, Zero-shot和Close-set设定下验证了该方法识别新字符的有效性。论文相关代码已开源,下载链接见文末。
一、研究背景
文本识别作为OCR的一项重要研究方向得到了广泛的研究和关注。但现有识别方法在识别新字符的时候,需要重新收集数据训练模型。这种做法费时费力且非常不灵活。近年来,关于开放集(Open-Set)识别问题相关研究不断涌现[1,2]。但现有方法可能会错误地识别新字符以适应模型从训练集中学到的字符上下文关系,如图1所示。于是本文提出将视觉信息和上下文信息解耦,避免上下文信息干扰新字符的识别。
二、方法原理简述
图2 模型结构图
图2是模型的整体结构图,其分为视觉分支和上下文分支。视觉模块用DSBN-ResNet45从文本图片中提取视觉特征
开放集识别器t时间步对应的字符概率如下,
图3 DTA模块结构
DTA模块复制预测文本长度和从视觉特征中提取时序信息。它的输入是ResNet45的中间层特征,分辨率从高到低分别是
三、主要实验结果及可视化效果
本文在Open-set, Zero-shot和Close-set设定下验证了该方法的有效性。首先是Open-set上的实验。训练数据为ART, RCTW, LSVT, CTW, MLT等公开的数据中收集得来的中文文本图片,测试数据为MLT中的日文文本图片。表1实验说明本文的方法与OSOCR[2]对比,在字符精度和整行识别率上都取得明显提升。证明该放法识别新字符的有效性。
图4 Open-set可视化结果
图5为两个模块的消融实验,DTA和DCA模块分别给基线模型带来了2.63和2.52的整行识别率提升。对比基线模型,将视觉和上下文分别建模,能够让很多识别错的新字符都识别正确。
图5 open-set消融实验
图6 Open-set消融实验可视化结果
下面是Zero-shot的实验,可以看到本文的方法都明显好于其它方法。
表2 Zero-shot上的识别表现
图7 Zero-shot可视化结果
最后是常规的识别实验,实验结果表明与其它Close-set的SOTA方法还是有不小的差距。因为它的视觉和语言模型完全解耦,效果上不如其它不解耦的方法也是比较自然。
表3 Close-set上的识别表现
表4 Close-set词典约束下的识别表现
四、总结及讨论
本文为了解决从训练集中学到的上下文信息会干扰新字符的识别的问题,将视觉特征信息和上下文信息解耦并分别建模。提出DTA和DCA模块分别学习时序信息和语言信息,在Open-set和Zero-shot上的实验都说明了该方法识别新字符的有效性。
但是该方法也存在以下问题,它假设视觉特征提取模块能对新语言提取通用视觉表征;在Open-set识别场景下,抛弃了语言信息;在Clost-set识别效果并不算太好。
五、相关资源
论文地址:https://arxiv.org/pdf/2204.05535.pdf
代码地址:https://github.com/lancercat/vsdf
参考文献
[1]Lyu P, Yuhao Huang, Lianwen Jin, and Dezhi Peng. Zero-shot Chinese text recognition via matching class embedding. In ICDAR, volume 12823, pages 127–141, 2021.
[2]Chang Liu, Chun Yang, Hai-Bo Qin, Xiaobin Zhu, JieBo Hou, and Xu-Cheng Yin. Towards open-set text recognition via label-to-prototype learning. CoRR, abs/2203.05179v1, 2021.z
原文作者:Chang Liu, Chun Yang*, Xu-Cheng Yin*
撰稿:李海洋
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[CVPR 2022]SimAN: 基于生成式模型的文本图像自监督表征学习
[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理(有源码)
[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型
[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法(有源码)
[CVPR 2022] 特征采样与分组:基于Transformer的场景文字检测方法
[AAAI 2022 Oral] ABM: 基于注意力聚合和双向交互学习的手写数学公式识别(有源码)
[CVPR 2022] SwinTextSpotter: 基于文本检测与识别更好协同的场景文本识别(有源码)
[ACM MM 2021]显示、阅读和推理:基于灵活上下文聚合器的表格结构识别
[ACM MM2021] 基于Transformer的文档图像几何矫正和光照恢复方法
[ICDAR 2021] 基于预测控制点的文档图像矫正(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: